您现在的位置是:孤曼来了网 > 探索
更高清写实的人体天生模子HyperHuman来了,基于隐式妄想散漫,刷新多项SOTA
孤曼来了网2024-11-15 20:32:50【探索】1人已围观
简介机械之心专栏作者:Snap钻研院,香港中文大学,香港大学,南洋理工大学论文地址: https://arxiv.org/pdf/2310.08579.pdfGithub 地址: https://gith
机械之心专栏
作者 :Snap钻研院,更高香港中文大学,清写香港大学,实的式妄南洋理工大学
论文地址: https://arxiv.org/pdf/2310.08579.pdf
Github 地址: https://github.com/snap-research/HyperHuman
1. 钻研布景与念头
随着散漫模子的人体崛起 ,一些典型的天生模子好比 Stable Diffusion, DALL-E 2 等在文本天生图像使命上揭示了使人震撼的能耐 。但一个清晰的模H漫刷缺少是 ,这些模子在文本天生人体图片的于隐使命上展现患上不精美绝伦 ,致使很难天生具备公平妄想或者做作姿态的想散新多项人体(好比精确的四肢数目以及适宜人体物理妄想的多少多拓扑)。眼前的更高主要原因在于:做作情景下的人体是铰接的,且搜罗刚性以及非刚性的清写形变;天生高品质的人体图片需要文本难以形貌的妄想信息。
为了在文生图中引入妄想操作信息,实的式妄近期的人体代表使命如 ControlNet[1] ,T2I-Adapter [2] 削减了颇为轻量的天生 、即插即用的模H漫刷可学习分支,用以调节预磨炼的于隐文生图散漫模子。可是,原本散漫模子分支以及新退出的可学习分支之间的特色差距,每一每一会导致生乐成果与操作信号的不不同。
为了处置这个下场, HumanSD [3] 运用了一种原生的操作向导方式 ,即直接将人体骨架图与散漫模子输入在特色维度妨碍拼接